百度决定把大模型的定义权交给客户
邮箱|zhuzheng@pingwest.com
在路易斯·V·格斯纳(Lou Gerstner)到来之前,IBM困在自己的技术陷阱里整整10年。
20世纪80年代,个人电脑兴起以及市场的快速变化开始对IBM构成挑战。这个市场份额最高曾经达到80%的硬件巨头,在进入90年代后随着个人电脑的普及和小型化,大型机市场萎缩,濒临解体边缘。这时候已经很少有人在意正是这家公司第一次把个人电脑带到世界上。
1993年3月25日,格斯纳和IBM的50人核心管理团队见了面,其中的一句话掷地有声——“市场决定我们的一切行为“。
这可能是IBM历史上最重要的45分钟,格斯纳成为IBM CEO后,这家公司开始抛下那个技术自我,开始从一家技术驱动型公司转变为市场和客户导向型公司。它也从单纯的硬件制造商转变为服务和解决方案提供商,咨询、系统集成、IT服务和软件在内的全面服务开始提上日程。
如果说那场IBM的革命是一场从硬件引领的软硬件革命,那眼下这场从OpenAI开始的革命,软件已经成了卷起一切的暴风眼。
ChatGPT让OpenAI从硅谷的一个笑话变成了新浪潮的领袖,随后GPT-3.5进化到GPT-4,Meta的Llama、Anthropic的Claude紧随其后;而随着2023年3月百度发布文心一言,这场大模型竞争在国内迅速演变成一场超过200个模型的臃肿样子。
现在IBM已经不再是那样重要的一家公司。但IBM式的困境一直在不断重演。无数大模型企业投入大量研发人员,但拿着精心打磨好的锤子找不到钉子。
在初期高调入场的百度,此时没有保持沉默。
在2023年百度发布文心一言后的第一个动作,就是推出企业级大模型平台——千帆。一年之后,百度副总裁谢广军站在百度智能云千帆产品发布会上公布了一组新的数据——截至2024年3月,千帆大模型平台累计服务客户数超过8w,累计精调了1.3w个模型,开发应用数达到16w。
在企业业务这个外部看来略显沉闷的赛道上,市场将决定大模型厂商的一切行为,而随着模型基础性能的提升,市场的需求开始进一步显化成对于产业应用的需求,换句话说,苦寻而不得的对于大模型能力的定义,定义权最终在客户手上。
在这个层面,百度是观察中国大模型产业整体性趋势一个很好的视角。而这家公司也正在迎来自己的“格斯纳”时刻。
“我并不需要一个 AGI 那样的通用人工智能”
一位新消费行业的客户从去年下半年逐渐确定了和百度在大模型上的合作。智能客服和数据库是新消费行业普遍亟需用大模型改造的地方,最早这家客户也尝试过国内市场上比较主流的开源模型,但效果并不理想。
这家客户最终选了百度ERNIE系列的轻量级大模型,其技术负责人告诉硅星人,百度这款模型落到具体场景上的效果要比其他试用过的模型好很多,并且这种能力能够以一个较低的成本获取,从长远看成本是可控的,这点很重要。
“某些场景满足需求就足够了,我并不需要一个AGI那样的通用人工智能。”这位技术负责人说。
这也是当性能拉满的千亿参数模型真的落到具体生产环境里所面临的错位感,绝对的技术能力最终要进入效率和成本的参考框架。企业——或许在未来很长一段时间内——并不是在找Sora,也不是在找GPT-4。他们需要的是一个真正适合自己用起来的模型。
——换句话说,“效价比”足够好的模型。
前述新消费客户用的是ERNIE Speed。ERNIE Speed是百度最新推出的大语言模型,专为高效处理特定场景问题而设计。这款模型以其优异的通用能力和出色的推理性能,成为精调的理想基座。ERNIE Speed支持推理上下文最高128K的规模,确保了在多样化任务中的适应性和高效性。
百度的研发团队通过ERNIE Speed,成功打造了一个精调后的角色扮演模型,以经典影视作品《武林外传》为背景,展示了其在特定场景下的卓越表现。在与GPT-4和文心4.0的对比中,经过精调的ERNIE Speed不仅在效果上毫不逊色,更在成本效益上展现了显著优势。在相同的输入输出条件下,基于ERNIE Speed精调后推理成本实现了96%的降幅。
目前,ERNIE Speed已在多个行业场景中得到应用,包括在线教育、智能办公、电商导购和数据分析等,均显示出其强大的实用性和效果。
包括ERNIE Speed在内,千帆大模型平台发布了三款轻量模型。如果ERNIE Speed的定位是“一个最好的适合精调的基座模型”那么在成本上做到极致的,则是ERNIE Tiny。
ERNIE Tiny的推理成本为0.001元/千Tokens。在这种低成本下,ERNIE Tiny并没有失去性能。ERNIE Tiny是百度为推荐、搜索、意图理解等大量高并发低延时场景提供的解法。这些场景中大量存在两种类型的调用需求,一种是大批量同质化的需求,另一种则是需要非常快的响应速度——而在这样的场景中,需求本身的难度往往并不那么高。比如社交产品后台对同时涌入的大量互动内容的整理,或者金融行业对于海量数据的即时收集。
在一项测试中,包括ERNIE 4.0、ERNIE Speed和ERNIE Tiny在内的五款模型来分别完成对一家在线零售公司的产品评论进行情感分类的任务,结果显示ERNIE Tiny只需要1.4个小时就完成了。
ERNIE Tiny也是百度目前最适合C端的一款大模型。“比如高并发的推荐场景,对效果要求没有那么苛刻,但是一样需要用大模型的逻辑推理能力、上下文的理解能力。这样的情况下Tiny有价格及性能优势,产业用户也更容易用起来。”百度智能云AI平台副总经理李景秋表示。
在ERNIE Speed和ERNIE Tiny之间,百度也另外设计了一个折衷方案ERNIE Lite。ERNIE Lite比ERNIE Speed更轻,比起ERNIE Tiny有着更高的模型性能上限。兼顾优异的模型效果与推理性能,适合低算力加速卡推理使用。推理价格达到0.006元/千Tokens,也在另外二者之间。
从2023年至今,关于大模型的的共识在不到15个月里几经转折。生成式AI在C端的杀手级应用还在等待时机,但在ToB市场,生成式AI与企业的共生关系正在形成,而在这个过程中,模型参数从千亿向几十至几百亿的区间回归,后者逐渐成为企业在成本与性能之间取得平衡的甜点位。
但模型参数的降级往往也意味着性能的坍塌。ERNIE Speed、ERNIE Lite以及ERNIE Tiny的特殊也在这里,大量企业客户的反馈显示,这些轻量级大模型能够在某些特定场景达到大参数量级模型的性能。而谢广军对此的理解是,最终这些小模型背后,文心大模型这个基座模型本身的性能和效率是决胜的地方。
某种程度上,大模型的竞争中“市场决定我们的一切行为”最终势必再次回归到技术竞争上。
产业大模型所面对的场景复杂多变,需要的模型能力和训练方向也南辕北辙。百度在这片战场上的胜负手也注定不会是任何一个具体的模型,而是在这个模型群背后,以文心大模型的能力为底色来制造模型的千帆大模型平台。
答案在8万家企业里
百度智能云在3月推出了千帆大模型平台,这是当时全球首个一站式的企业级大模型平台。6个月之后,平台中的月活企业数已近万家,随着67个国内外主流大模型以及47个高质量行业特色数据集的预置,千帆大模型平台完成从1.0向2.0的迭代,更完善的工具链以及大模型安全方案也在逐渐形成。
在此次百度智能云千帆产品发布会上,谢广军透露的数字是,平台企业客户数已经到达8万家。
在一个具备通识能力的大模型上做精调,正在密集变成企业对于大模型的一种常规需求,千帆大模型平台下一步的计划是将精调过程流程化,并且开放出来。
谢广军表示,大模型在快速上升阶段,目前还是直接调用基座模型的用户更多。随着应用深入,企业会基于基座模型,进一步结合自己的数据去做精调,提升模型效果或者构建行业大模型,“认为精调需求增长会比较大。当然,企业精调完模型后仍然要做推理,因为推理才是和应用最相关的,因此推理的需求也将有很大的涨幅”。
这也是在服务大量客户之后才能察觉到的企业痛点——大参数模型的效率问题或许是最直接的一点——但客户踩过的坑远不止这一个。
有些客户已经非常明确掌握了模型精调和训练的方法,但可能苦于只有他自己的业务场景,缺少一些通用的数据,导致整个精调过程中,大模型的通识又遗忘了;或者在模型迭代方面,客户自身的业务数据是在不断变化的,比如之前调好的prompt,或者之前精调好的模型,到下个月企业业态发生变化后,效果需要一个持续不断的升级过程。
精调过程流程化的答案沉淀在千帆大模型平台的工具链里。
首先,千帆ModelBuilder支持数据回流,支持自动化分析、判别,比如告诉你的客户点赞了哪些,拉踩了哪些,我们把针对性拉踩的数据再去做一轮优化,使得你的业务场景持续打造一个效果更好,同时成本可控的应用方案。
千帆大模型平台也开放了通用的数据,让模型能够保持对“常识”的不遗忘。同时在这个过程中,比如数据清洗的算子、数据增强的算子、数据洞察的方案,千帆大模型平台会提供样本洞察分析处理的一站式工具链,帮助用户更快、更简单的去达到最佳的精调效果。
8万家企业客户所形成的产业生态,也为百度带来了一种更有说服力的视角,千帆大模型平台可以开始做一些更具体的工作。
在三款轻量模型之外,瞄准目前大模型与企业交集最深的问答交互和智能助理场景,此次千帆大模型平台发布了两款垂直场景模型ERNIE Character和ERNIE Functions。
ERNIE Character专为打造具有鲜明人设风格和一致性的对话角色而设计。这一模型在游戏NPC、客服对话以及角色扮演等应用场景中表现出色,得益于其强大的指令遵循能力和对个性化人设的精准把握。通过支持精调功能,ERNIE Character能够根据特定场景和需求,进一步优化对话体验和角色表现。
ERNIE Character已经开始落入产业。一家智能硬件厂商利用该模型开发了一款智能助理,不仅在维持角色人设的一致性方面取得了突破,还有效激发并提升了用户的聊天兴趣。
这样的对话和问答场景依赖于大模型与外部系统或服务的交互能力。ERNIE Functions则是针对对话和问答场景中的功能调用优化的大模型。它通过强化结构化回答的合成能力,确保在调用外部工具和执行业务函数时输出结果的准确性和稳定性。在旅游出行类APP的实际应用中,ERNIE Functions支持智能客服助手执行订票、查询航班等操作,准确率高达92%。
这其中的另一个趋势是,对于大模型的期望正在经历一场从上游模型本身向下游的AI原生应用转移。这种注意力的变化也体现在千帆大模型平台的客户分布上。平台上超过8万的客户中有直接调用文心4.0、文心3.5或基于轻量大模型做模型精调,另一部分是在AppBuilder去开发应用。
如果ModelBuilder的概念是生产平台,提供整个模型训练的工具链,让模型推理、精调变得更简单。那么AppBuilder的角色就是为了有效降低应用开发门槛。
从模型到 AI 原生应用
据风险投资公司a16z一个分析报告显示,排名前50外部端的AI原生公司中有22个,超过40%都是新的AI原生应用公司。
2024年是AI原生应用元年,这逐渐成为一种共识。而在产业当中,新的AI原生应用并不会是无源之水。许多场景本身已经非常成熟,在AI能力出现之前,数字化的痛点也早已经显露出来。从这个角度来说,产业所期待的AI原生应用,更倾向于在模型能力进一步成熟后,对现有已经存在的工具和应用的改造。
“2023年在中国大家主要是在做训练——相当于在炼丹——现在这个丹药炼的差不多了,你得用上。”谢广军说。
在千帆大模型平台上开发的应用数现在已经超过了16万。这个数字非常可观,并且已经足够大到可以看出在目前AI原生应用大量涌现的初期,两类最主要的人群画像。
“一种是代码态,基于现有的应用去做智能化改造,这种是大B端的场景下的典型客户画像;另一种是零代码态,以小企业、个人开发者为主,一般是做全新的、独立的、toC的应用。”谢广军表示,“从人群比例分布上来说,个人开发者数量更多,但从使用深度上看,企业专业的开发者团队使用更为深入。”
这也会是AI原生应用可预期的两种设计动机。针对两种不同的路线,AppBuilder开始形成代码态和零代码态两种使用形态,并且开始了一场全面升级。
为进一步提高开发体验和效果, AppBuilder将工具组件扩增至55个,包括数十个大模型能力组件、AI能力组件以及第三方API等,为开发者提供了更加丰富、便捷的开发工具。
同时,AppBuilder上线了Agent自主任务规划与工作流编排,只需三步即可完成应用创建与发布,仅需用自然语言提出问题,即可自动创建相应应用,无需写复杂的需求和代码。这意味着对于非代码背景的开发人群来说,开发门槛进一步降低了。
谢广军表示,目前AppBuilder已经构建起了一个企业级全链路检索增强应用框架,即提供面向企业级应用场景的全链路知识检索增强,结合行业数据调优的多项能力组件。包含非结构化文档解析、语义向量计算、语义匹配、问题拆解、多轮改写、幻觉检测、阅读理解问答、文档表格问答等。
除了检索增强框架和丰富的组件工具,AppBuilder另一个核心优势在于开放易用。
在这个产业级AI原生应用开发平台上,现在基本能够覆盖当下主流场景的组件工具以及丰富的应用示例,并且组件具备灵活编排的开放性。而包括RAG SDK在内的丰富开源SDK支持开发者的二次开发,此次百度千帆大模型也全新发布了开源的Agent SDK。
除此之外,对于开发者来说如何把做出来的应用带到更多人面前是新的问题。AppBuilder在分发渠道上也做了进一步打通。AppBuilder平台上生产出的应用现在可以实现包括微信公众号、微信客服、web端、H5、百度灵境矩阵等多渠道一键发布。
从ModelBuilder到AppBuilder,大模型如何走向场景的具体道路,已经在百度内部显现出来了。